SD-GRPO: Descomposición verificable de segmentos en VL larga
SD-GRPO mejora la generación de respuestas largas en modelos multimodales al descomponer segmentos verificables y asignar recompensas precisas.
SD-GRPO mejora la generación de respuestas largas en modelos multimodales al descomponer segmentos verificables y asignar recompensas precisas.